之前在介紹 Decision Tree(決策樹)的時候,有講到要把資料切成 80% 給模型訓練,20% 給給模型測試訓練結果,這是最基本的模型評估方法。
但,它有一個缺點:只切一次,可能會因為剛好切到「好」或「壞」的資料,而導致模型的評估不穩定,因此,有另外一個方法可以去解決這個問題,就是交叉驗證(Cross-Validation)。
今天就要來介紹 Cross-Validation~
交叉驗證就是將同一份dataset,多次分割(split)成不同訓練集(training set)以及測試集(test set),並多次的測驗模型的能力。
其中最經典的就是 K-fold Cross-Validation
K-fold Cross-Validation 核心概念:
1. 可以得到較為穩定且有信服力的預測
2. 測試模型的敏感程度(model sensitivity)
Reference 1
Reference 2
Reference 3